微生物群落谱研究相关名词解释
分子钟
分子钟:许多学者对若干代表性蛋白质的分析,以及近年来又通过直接对比基因的碱基排列顺序,证实了分子进化速度的恒定性大致成立,并由中立说在理论上奠定了基础。这便是“分子钟”名称的由来。
16S rDNA是细菌分类学研究中最常用的“分子钟”,其序列包含9个可变区 (Variable region) 和10个保守区 (Constant region)。可变区因细菌而异,且变异程度与细菌的系统发育密切相关,通过检测微生物群落内所有16S rDNA的序列变异和丰度,即可了解样品中细菌群落多样性和组成信息。
16S rDNA扩增子测序:通过PCR的方法特异性的扩增目标样品微生物群落16S rDNA的可变区 (一般为一个或两个可变区),应用PCR产物建立测序文库,使用二代测序技术进行高通量测序,之后利用生物信息学方法分析微生物群落的细菌组成及其丰度,进而比较不同样品间微生物群落的差异。
16S rDNA全长测序:通过PCR的方法扩增目标样品微生物群落16S rDNA的全长,利用三代测序技术长读长的特点,可以得到微生物群落16S rDNA的完整信息,从而提供比二代测序更为准确的物种分类学注释结果,进而比较不同样品间微生物群落的差异。
建库测序
barcode:由于进行微生物群落组成谱研究单个样品所需数据量较小,因此通常是许多样品进行混合建库,在建库之间,要在每个样品的16S rDNA PCR产物两端添加特异性的序列,在测序之后用于区分序列属于哪个样品,这些添加的特异性序列即为barcode。
嵌合体 (Chimera):样品在PCR的过程中,会有一些意外因素导致PCR产物由不同的模板复制得到不同的部分,使得PCR产物出现原本不存在的序列,称为嵌合体,这些序列要在质量控制过程中予以去除。
Tags:由于二代测序的读长较短,只能覆盖16S rDNA的一个可变区,因此在进行测序时,通常构建长度覆盖两个可变区的文库,采用双端测序的策略进行测序,得到的paired-end reads依靠重叠区域拼接在一起,以增强其分类学注释的准确性,拼接后得到的序列即称为tags。
序列标准化:不一致的测序深度会影响样品的多样性分析和比较,因此在进行分析前需要对测序结果进行标准化,标准化的方法是随机提取每一个样品的测序结果,提取的数量为获得序列条目最少的样品的序列数目。
可操作分类单元 (OTU):为了便于进行分析,人为给某一个分类单元设置的统一标志,在16S rDNA微生物多样性研究中,要了解一个样品测序结果中菌种、菌属等数目信息,需要将测序得到的Tags按照碱基相似度97%进行聚类,得到的每一个聚类称为一个OTU,普遍认为相似度97%可以区分属水平的不同微生物,之后在每个OTU中选取一条代表序列进行物种分类学注释,也就是说每个OTU会对应一个物种信息。
Singleton:如果某一条Tag与其它Tags的相似度都没有达到97%,就会独自形成一个OTU,这种OTU称为Singleton,可能是由于测序错误导致的,所以在分析中需要将其去除。
Alpha多样性
Alpha多样性:用于评估群落内生物种类的多少以及不同生物间相对丰度的数量指数。
丰富度指数:一定空间范围内生物的丰富程度。
均匀度指数:群落中各个物种的相对密度。
Chao1、ACE:丰富度指数,估算样品中含OTU的数目,即所含物种的总数。
Simpson:反映的是优势种在群落中的地位和作用,数值越大,说明群落多样性越低。
Shannon:评估样品中物种组成的丰富度和均匀度,数值越大,说明群落多样性越高。
稀释曲线:从样本中随机抽取一定数量的序列,统计这些序列所代表的物种数目,并以序列数与物种数来构建曲线,用来说明样本的测序数据量是否能够完整的反应微生物群落。
Beta多样性
Beta多样性:评估不同微生物群落间整体相似性的数量指数,微生物群落间相似性越低,beta多样性指数越大。
Beta多样性可以分为定性和定量两种:
定性的beta多样性指数,包括Jaccard指数、Dice系数等,其只考虑每种OTU在群落中出现/不出现,而不考虑它们的丰度;
定量的beta多样性指数,包括Bray-Curtis距离、Canberra距离、欧氏距离等,其计算时考虑的是每种OTU在群落中的丰度。
UniFrac距离:在beta多样性的基础上添加了物种进化信息,计算了仅被一个群落占据的进化历史的相对大小,这个量越大,说明两个群落中独立的进化过程越多,也就说明这两个群落的差别越大。
若两个群落完全相同,那么它们没有各自独立的进化过程,UniFrac值为0;
若两个群落在进化树中完全分开,即它们是完全独立的两个进化过程,那么UniFrac值为1。
UniFrac距离分为两种:weighted UniFrac和unweighted UniFrac,unweighted UniFrac在计算时只考虑物种是否在群落中存在,而不考虑其丰度,weighted UniFrac在计算是同时考虑了物种的存在性及其在群落中的相对丰度。
高通量测序技术基础简介
基因测序技术的原理和应用
高通量测序技术的研究相关概念